查看原文
其他

翻译技术|代码分享——多语料库词频分析表格

吴志雄 翻译圈
2024-09-09

代码分享

多语料库词频分析表格

代码及解析
import csvfrom nltk import FreqDistfrom nltk.corpus import PlaintextCorpusReaderimport nltk
# 设定语料库所在路径corpus_root = r"D:\学习\语料库\中国政治文本语料库"# 使用 PlaintextCorpusReader 读取语料库corpora = PlaintextCorpusReader(corpus_root, '.*')
# 分别读取三个文件,并将单词转换为小写形式jiang1_words = [word.lower() for word in corpora.words('jiang selected 1.txt')]jiang2_words = [word.lower() for word in corpora.words('jiang selected 2.txt')]jiang3_words = [word.lower() for word in corpora.words('jiang selected 3.txt')]
# 创建词频分布对象jiang1_freq = FreqDist(jiang1_words)jiang2_freq = FreqDist(jiang2_words)jiang3_freq = FreqDist(jiang3_words)
# 创建 CSV 文件并写入数据with open(r'D:\学习\语料库\中国政治文本语料库\1.csv', 'w', newline='', encoding='utf-8') as csvfile: sheet = csv.writer(csvfile) # 创建 CSV 写入对象 sheet.writerow(['Word', 'jiang1', 'jiang2', 'jiang3']) # 写入表头 word_list = ['revolution', 'transformation', 'reform'] # 定义要分析的单词列表 # 遍历单词列表,写入每个单词在三个文本中的频率 for word in word_list: sheet.writerow([word, jiang1_freq[word], jiang2_freq[word], jiang3_freq[word]])
运行结果如下:


每日啃一段代码,日积月累,我们可以跨越这条鸿沟,若是还未入门Python,可加入我们的粉丝群免费获取《第一本书Python》,快速入门!

往期代码合集可后台回复代码分享或者加入翻译圈粉丝群获取,粉丝群还有其它资源哦!


参考书藉:Python语言数据分析 管新潮 著

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

- END -



翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!


原文作者:吴志雄

推文编辑:李姗姗

指导老师:朱华

核:吴志雄、刘一葶

项目统筹:吴志雄

资讯推荐


心得分享:阅读新书的顺序

▶精品课程

精品课程|(今晚开课)从入门到进阶:语料库建设与统计分析实务

精品课程|从入门到进阶:语料库建设与统计分析实务

新课来袭 | 开启倒计时!AI时代掀起影视字幕翻译的智能革命

▶资源宝库

翻译技术|提升 ChatGPT 翻译质量的简单 prompt

翻译技术|以Sketch Engine为船遨游语料海洋(二)

翻译技术|The Free Dictionary-多语在线词典搜索引擎

翻译技术|字幕翻译配音恐失业,Ai翻译配音超逼真

资源宝库|小鹤音形输入法——打字,你还能更快!

资源宝库|经济学人等160多家外刊免费看!

资源宝库|哈利波特1~8季大放送

▶翻译百科

翻译百科|《中国大百科全书》中的“翻译学”

翻译百科|《中国大百科全书》中的“神经网络机器翻译”

翻译百科|《中国大百科全书》中的“翻译层次”

翻译百科|《中国大百科全书》中的“范化”

翻译百科|《中国大百科全书》中的“可比语料库”

▶代码分享

翻译技术|代码分享——textblob情感分析

翻译技术|代码分享-提取三连词

翻译技术|代码分享——中文词云生成

翻译技术|代码分享——标准类符形符比

翻译技术|代码分享——清除符号

▶文献精读

文献精读|Explicitation in Neural Machine Translation

文献精读|Vanmassenhove:机器翻译中语言丰富性缺失

▶译界动态

译界动态|翻译公司—日本Honyaku Center简介

论坛预告 | 2023翻译技术与语言服务人才培养高端论坛

译界动态|2023“理解当代中国”多语种国际翻译大赛

译界动态|美国文学翻译协会 ( ALTA )简介

译届动态|公益沙龙之ChatGPT时代译者的搜商体系构建之道

  关注我们 了解更多

CATTI和MTI资讯

语言服务就业信息

翻译名师真知灼见

翻译学习精品课程


继续滑动看下一个
翻译圈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存